Optimización estable de políticas con convexidad de logits
Descubre cómo la convexidad de logits estabiliza la optimización de políticas en RL, superando la inestabilidad del PPO. Resultados probados en múltiples benchmarks.
Descubre cómo la convexidad de logits estabiliza la optimización de políticas en RL, superando la inestabilidad del PPO. Resultados probados en múltiples benchmarks.
Descubre GNMR, un controlador ligero que estabiliza el entrenamiento de modelos de lenguaje en baja precisión sin cambiar el formato numérico. Mejora la calidad y reduce costes.